28.5 로봇을 위한 가치 정렬 (Value Alignment for Robotics) 28.5 로봇을 위한 가치 정렬 (Value Alignment for Robotics) 28.5.1 인간 피드백 기반 강화학습(RLHF)의 로봇 제어 적용 28.5.2 헌법적 AI(Constitutional AI)와 로봇 행동 가이드라인 설정 28.5.3 인터넷 스케일 데이터의 편향(Bias) 제거와 공정한 로봇 행동 28.5.4 안전 제약 조건이 내재된 보상 함수 설계(Safety-Aware Reward Design)